#Sonnet 3.5

北火

2周前

昨天用 Claude Code 开发，感觉比 Cursor 里面的 Sonnet 4 聪明很多。当时推测可能是 Claude Code 使用了 Opus 4。但是最后一查 cost，居然是使用的 Sonnet 3.5 🤯 只能说 Claude Code 的工程能力是真的强

AI编程工具激战：Claude Code、Gemini Cli崛起· 137 条信息

AI编程：Gemini免费用，Claude手机玩· 192 条信息

#Claude Code #Sonnet 4 #Opus 4 #Sonnet 3.5 #工程能力

RichChat

4个月前

刚看到还有人在做一个专门测试大模型“幻觉”的排行榜，这是今年2月11号更新的榜单，排名第一的是Google Gemini-2.0-Flash-001。不用在图上找文采比较好的DeepSeek R1和Sonnet 3.5了，按照这里的统计都属于上不了榜的水平。。。榜单的打分逻辑很简单：训练了一个专门检测幻觉的模型，然后用1000篇短文档测试市面上的各大LLM。每个LLM都被要求严格按照文档内容做总结，温度设为0以保证输出的确定性。记录三个关键指标：事实一致性率、幻觉率和回答率。为什么选择总结任务？- 因为在普通问答中研究者很难判断回答是否属于幻觉。但在总结任务中，由于有明确的参考标准 - 原文本身。这让评估变得客观且可量化。也算是模拟了真实世界中RAG系统的应用场景。

#大模型 #幻觉排行榜 #Google Gemini-2.0 #DeepSeek R1 #Sonnet 3.5 #幻觉检测 #LLM测试

Michael Anti

6个月前

我个人感觉，每个AI都有自己的思维范式，大家应该用集成式AI平台，同时和效果最好的三个AI进行对话（我自己高频个人使用4o+Gemini 2.0 Thinking+Sonnet 3.5），这样等于和你的三个合伙人组成了决策小组，每时每刻头脑风暴，他们各有特色，你只要看各自对你最有启发、最闪光的论点、为你所用就好了。

#AI #思维范式 #集成式AI #决策小组 #头脑风暴 #4o+Gemini 2.0 #Thinking #Sonnet 3.5 #个人使用

Gorden Sun

6个月前

Sonnet 3.5就像是程序员，你的要求提的越精细，得到的结果越准确。你要一个钉子，他给你一个钉子；你要一个红色的铜的图钉，他给你一个红色的铜图钉。 OpenAI o1像是产品经理，有时他会退一步思考你的要求背后的真实需求。你要一个钉子，他会思考你要钉子是为了做什么，如果是为了挂一幅画，他会同时推荐钉子以外的方案，例如粘钩、强力胶。用o1辅助思考，用Sonnet辅助执行。

#程序员 #产品经理 #OpenAI #Sonnet 3.5 #执行力 #思考 #需求分析